Giới thiệu về Học tăng cường sâu (DRL)
Học tăng cường sâu (DRL) kết hợp khả năng biểu diễn ở chiều cao của Mạng nơ-ron sâu với khung điều khiển tối ưu của Học tăng cường. Khác với học có giám sát hoặc học không có giám sát, DRL các tác nhân học thông qua tương tác thử sai trong một môi trường động môi trường, đưa ra các quyết định liên tiếp mà không cần nhãn rõ ràng ngay lập tức. Sự tích hợp này cho phép các tác nhân xử lý trực tiếp các đầu vào phức tạp, thô (như dữ liệu hình ảnh).
1. Mô hình học tập DRL
Tác nhân RL hoạt động theo một vòng lặp liên tục: quan sát môi trường Trạng thái ($S_t$), thực hiện một Hành động ($A_t$), và nhận được một tín hiệu phần thưởng vô hướng có thể thưa thớt hoặc bị trì hoãn Phần thưởng ($R_{t+1}$). Thách thức chính là vấn đề phân bổ trách nhiệm: xác định hành động nào trong quá khứ đã gây ra tín hiệu phần thưởng trong tương lai.
2. Mục tiêu tối ưu hóa
Mục tiêu cuối cùng là tìm ra một chiến lược tối ưu, hay nói cách khác là chính sách ($\pi^*$), là một ánh xạ từ trạng thái sang hành động, nhằm tối đa hóa Tổng phần thưởng được chiết khấu kỳ vọng ($G_t$). Yếu tố hệ số chiết khấu ($\gamma \in [0, 1]$) là yếu tố toán học then chốt, xác định mức độ chúng ta đánh giá phần thưởng ngay lập tức so với phần thưởng dự kiến trong tương lai xa.
$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$1. $\gamma = 0$
2. $\gamma \approx 1$
Describe the agent's behavioral preference in each case regarding the timeline of rewards.
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.